Introdução


Um pesquisador coletou dados sobre três variáveis psicológicas, quatro variáveis acadêmicas (resultados de testes padronizados), e o tipo de programa educacional do aluno em 600 estudantes do ensino médio.

Ele está interessado em descobrir como o conjunto de variáveis psicológicas está relacionado com as variáveis acadêmicas e o tipo de programa que o aluno está inserido.

Introdução


Um médico coletou dados sobre o nível de colesterol, pressão arterial e peso. Ele também coletou dados sobre os hábitos alimentares dos pacientes (por exemplo, o quanto de carne vermelha, peixe, produtos lácteos e chocolate são consumidos por semana).

Ele quer investigar a relação entre as três medidas de saúde e hábitos alimentares de seus pacientes.

Introdução


  • Regressão Linear Simples: Temos uma variável dependente \(Y\) e uma variável independente \(X\).
  • Regressão Linear Múltipla: Temos uma variável dependente \(Y\) e várias variáveis independentes \(X_1, X_2, \cdots, X_r\).
  • Regressão Linear Múltipla Multivariada: Temos várias variáveis dependentes \(Y_1, Y_2, \cdots, Y_p\) e várias variáveis independentes \(X_1, X_2, \cdots, X_r\). Nesse caso, cada variável \(Y\) e relacionada com todas as variáveis \(X\).

O caso univariado

Modelo de regressão linear múltiplo univariado


Sejam \(X_1, X_2, \cdots, X_r\) \(r\) variáveis independentes relacionadas à uma variável resposta \(Y\).

O modelo de regressão linear múltipla univariado é dado pela seguinte expressão:

\[\underbrace{Y}_{\text{resposta}} = \underbrace{\beta_0 + \beta_1X_1 + \cdots + \beta_rX_r}_{\text{média; parte estrutural}} + \underbrace{\epsilon}_{\text{erro; parte aleatória}}\]

Modelo de regressão linear múltiplo univariado


  • O modelo é dito linear, pois a parte estrutural é linear nos parâmetros \(\beta_j\), \(j = 1, \cdots, r\).
  • Se dispomos de \(n\) observações independentes:

\[Y_{i} = \beta_0 + \beta_1X_{1i} + \cdots + \beta_rX_{ri} + \epsilon_i, \hspace{0.2cm} i = 1, \cdots, n\]

Modelo de regressão linear múltiplo univariado


Suposições

  • \(E(\epsilon_i) = 0\), \(\forall i = 1, 2, \cdots, n\)
  • \(\text{Var}(\epsilon_i) = \sigma^2\), \(\forall i = 1, 2, \cdots, n\) (homocedasticidade)
  • \(\text{Cov}(\epsilon_i, \epsilon_k) = 0\), \(\forall i \neq k, \hspace{0.3cm} i,k \in \{1, 2, \cdots, n\}\)

Modelo de regressão linear múltiplo univariado


Em notação matricial, temos:

\[\underbrace{\mathbf{y}}_{n \times 1} = \underbrace{\mathbf{X}}_{n \times (r + 1)} \underbrace{\mathbf{\beta}}_{(r + 1) \times 1} + \underbrace{\mathbf{\epsilon}}_{n \times 1} \]

Suposições

  • \(E(\mathbf{\epsilon}) = \mathbf{0}\)

  • \(\text{Var}(\mathbf{\epsilon}) = \sigma^2 \mathbf{I}_n\)

Modelo de regressão linear múltiplo univariado


\[ \mathbf{y} = \left[ \begin{matrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{matrix} \right] \hspace{1cm} \mathbf{X} = \left[ \begin{matrix} 1 & X_{11} & X_{12} & \cdots & X_{1r} \\ 1 & X_{21} & X_{22} & \cdots & X_{2r} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & X_{n1} & X_{n2} & \cdots & X_{nr} \end{matrix} \right] \]

\[ \mathbf{\beta} = \left[ \begin{matrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_r \end{matrix} \right] \hspace{1cm} \mathbf{\epsilon} = \left[ \begin{matrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{matrix} \right] \]

Modelo de regressão linear múltiplo univariado


🤔

Observe que ainda não fizemos nenhuma suposição a cerca da distribuição dos erros…


  • Para efeito de obter os estimadores de mínimos quadrados, de fato, não é necessária nenhuma suposição sobre a distribuição da parte aleatória
  • Para fins de inferência, essa suposição será necessária…

Estimadores de mínimos quadrados


Suponha que a matriz \(\mathbf{X}\) seja de posto-completo tal que suas colunas formam um conjunto L.I.

Neste caso, a matriz \(\mathbf{X}^t \mathbf{X}\) é não singular e o estimador de mínimos quadrados do vetor \(\mathbf{\beta}\) é dado por

\[\widehat{\mathbf{\beta}} = (\mathbf{X}^t \mathbf{X})^{-1}\mathbf{X}^t\mathbf{y}\]

Modelo de regressão linear múltiplo univariado

Os valores ajustados são, então, dados por:

\[\widehat{\mathbf{y}} = \mathbf{X}\widehat{\mathbf{\beta}} = \underbrace{\mathbf{X}(\mathbf{X}^t \mathbf{X})^{-1}\mathbf{X}^t}_{\mathbf{H}}\mathbf{y} = \mathbf{H} \mathbf{y}\]

e os resíduos

\[\widehat{\mathbf{\epsilon}} = \mathbf{y} - \widehat{\mathbf{y}} = (\underbrace{\mathbf{I} - \mathbf{H}}_{\mathbf{P}} )\mathbf{y}\]

satisfazem (somente quando houver a constante \(\beta_0\) no modelo)

\[\mathbf{X}^t\widehat{\mathbf{\epsilon}} = {\mathbf{0}} \hspace{0.5cm} e \hspace{0.5cm} \widehat{\mathbf{y}}^t\widehat{\mathbf{\epsilon}} = 0 \]

Modelo de regressão linear múltiplo univariado

  • Observação: Temos que \(\mathbf{H}\) e \(\mathbf{P}\) são matrizes idempotentes (\(\mathbf{H} = \mathbf{H}\mathbf{H}\) e \(\mathbf{H} = \mathbf{H}^t\)).

A soma de quadrados de resíduos é

\[\text{SQ Res} = \displaystyle{\sum_{i=1}^n}(y_i - \widehat{y}_i)^2 = \widehat{\mathbf{\epsilon}}^t\widehat{\mathbf{\epsilon}} = \mathbf{y}^t(\mathbf{I} - \mathbf{H})\mathbf{y} = \mathbf{y}^t\mathbf{y} - \mathbf{y}^t \mathbf{X} \widehat{\mathbf{\beta}}\]

Observe que…

\[\displaystyle{\sum_{i=1}^n} y_i^2 = \mathbf{y}^t \mathbf{y} = (\mathbf{y} - \widehat{\mathbf{y}} + \widehat{\mathbf{y}})^t (\mathbf{y} - \widehat{\mathbf{y}} + \widehat{\mathbf{y}}) = \widehat{\mathbf{y}}^t\widehat{\mathbf{y}} + \widehat{\mathbf{\epsilon}}^t \widehat{\mathbf{\epsilon}}\]

Modelo de regressão linear múltiplo univariado


Uma vez que a primeira coluna de \(\mathbf{X}\) é \(\mathbf{1}\), a condição \(\mathbf{X}^t\widehat{\mathbf{\epsilon}} = {\mathbf{0}}\) inclui a exigência \(0 = \mathbf{1}^t\widehat{\mathbf{\epsilon}} = \displaystyle{\sum_{j=1}^n} \widehat{\mathbf{\epsilon}}_j = \displaystyle{\sum_{j=1}^n} y_j - \displaystyle{\sum_{j=1}^n} \widehat{y}_j\) ou \(\bar{y} = \bar{\widehat{y}}\). Subtraindo \(n\bar{y}^2 = n\bar{\widehat{y}}^2\) de ambos os lados, temos a decomposição básica da soma de quadrados total:

\[\text{SQ Total} = \mathbf{y}^t \mathbf{y} - n\bar{y}^2 = \widehat{\mathbf{y}}^t\widehat{\mathbf{y}} - n\bar{\widehat{y}}^2 + \widehat{\mathbf{\epsilon}}^t \widehat{\mathbf{\epsilon}}\]

Modelo de regressão linear múltiplo univariado


De forma que, o coeficiente de determinação \(R^2\) é dado por:

\[R^2 = 1 - \dfrac{\text{SQ Res}}{\text{SQ Total}} = 1 - \dfrac{\mathbf{y}^t\mathbf{y} - \mathbf{y}^t \mathbf{X} \widehat{\mathbf{\beta}}}{\widehat{\mathbf{y}}^t\widehat{\mathbf{y}} - n\bar{\widehat{y}}^2 + \widehat{\mathbf{\epsilon}}^t \widehat{\mathbf{\epsilon}}}\]

  • Observação: \(R^2\) fornece a proporção da variação total dos \(Y_i's\) que é “explicada” pelas variáveis independentes.

Exemplo: Ajuste de modelo de regressão para dados imobiliários


Os dados do arquivo Exemplo_regressao_01.dat referem-se à avaliação imobiliária de 20 casas de determinado bairro em uma cidade. As variáveis envolvidas são:

  • \(X_1\): Tamanho total da habitação (em milhares de metros quadrados)
  • \(X_2\): Valor da avaliação (em milhares de reais)
  • \(Y\): Valor da venda (em milhares de reais)

Exemplo: Ajuste de modelo de regressão para dados imobiliários

library(pacman)
pacman::p_load(
  tidyverse,
  ggResidpanel
)
dados = read.table("https://raw.githubusercontent.com/tiagomartin/est022/refs/heads/main/dados/Exemplo_regressao_01.dat", header = TRUE) 
dados %>% str()
'data.frame':   20 obs. of  3 variables:
 $ X1: num  15.3 15.2 16.2 14.3 14.6 ...
 $ X2: num  57.3 63.8 65.4 57 63.8 63.2 60.2 57.7 56.4 55.6 ...
 $ Y : num  74.8 74 72.9 70 74.9 76 72 73.5 74.5 73.5 ...

Exemplo: Ajuste de modelo de regressão para dados imobiliários

attach(dados)

n = length(X1)
n
[1] 20
X0 = rep(1,n)
X0
 [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## matriz X

X = cbind(X0,X1,X2)
X %>% head()
     X0    X1   X2
[1,]  1 15.31 57.3
[2,]  1 15.20 63.8
[3,]  1 16.25 65.4
[4,]  1 14.33 57.0
[5,]  1 14.57 63.8
[6,]  1 17.33 63.2

Exemplo: Ajuste de modelo de regressão para dados imobiliários

## estimando o vetor beta

betaCh = solve(t(X)%*%X)%*%t(X)%*%Y
betaCh
          [,1]
X0 30.96656634
X1  2.63439962
X2  0.04518386
## valores estimados de Y

YCh = X%*%betaCh
YCh %>% head()
         [,1]
[1,] 73.88826
[2,] 73.89217
[3,] 76.73058
[4,] 71.29299
[5,] 72.23250
[6,] 79.47633

Exemplo: Ajuste de modelo de regressão para dados imobiliários

## residuo

resCh = Y - YCh
resCh %>% head()
           [,1]
[1,]  0.9117402
[2,]  0.1078291
[3,] -3.8305847
[4,] -1.2929930
[5,]  2.6675008
[6,] -3.4763318
plot(resCh)
abline(h=0, col = "red", lty = 3,lwd = 5)

Exemplo: Ajuste de modelo de regressão para dados imobiliários

t(X)%*%resCh
            [,1]
X0 -3.255707e-11
X1 -5.105427e-10
X2 -2.024407e-09
t(YCh)%*%resCh
              [,1]
[1,] -2.444921e-09
## Soma de quadrados do residuo

SQRes = t(Y)%*%Y - t(Y)%*%X%*%betaCh
SQRes
         [,1]
[1,] 204.9949

Exemplo: Ajuste de modelo de regressão para dados imobiliários

## Soma de quadrados total

SQTot = t(YCh)%*%YCh - (n * (mean(YCh)^2)) + t(resCh)%*%resCh
SQTot
        [,1]
[1,] 1237.87
## Coeficiente de determinacao R2

R2 = 1 - (SQRes/SQTot)
R2
         [,1]
[1,] 0.834397
detach(dados)

Exemplo: Ajuste de modelo de regressão para dados imobiliários

model = lm(Y~X1+X2, data = dados)
summary(model)

Call:
lm(formula = Y ~ X1 + X2, data = dados)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5894 -1.5411 -0.0718  1.3507  6.4605 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 30.96657    7.88221   3.929  0.00108 **
X1           2.63440    0.78560   3.353  0.00377 **
X2           0.04518    0.28518   0.158  0.87598   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.473 on 17 degrees of freedom
Multiple R-squared:  0.8344,    Adjusted R-squared:  0.8149 
F-statistic: 42.83 on 2 and 17 DF,  p-value: 2.302e-07

Exemplo: Ajuste de modelo de regressão para dados imobiliários

resid_panel(model)

Generalizando

Modelos de Regressão Linear Multivariada


Suponha agora, que a variável resposta é p-variada \(\mathbf{Y}\) e que \(X_1, X_2, \cdots, X_r\) representam as variáveis independentes:

\[Y_1 = \beta_{01} + \beta_{11}X_1 + \cdots + \beta_{r1}X_r + \epsilon_1\]

\[Y_2 = \beta_{02} + \beta_{12}X_1 + \cdots + \beta_{r2}X_r + \epsilon_2\]

\[\vdots \hspace{4cm} \vdots \hspace{4cm} \vdots\]

\[Y_p = \beta_{0p} + \beta_{1p}X_1 + \cdots + \beta_{rp}X_r + \epsilon_p\]

Modelos de Regressão Linear Multivariada


  • \(\mathbf{\epsilon} = [\epsilon_1, \epsilon_2, \cdots, \epsilon_p]^t\) com \(E(\mathbf{\epsilon}) = \mathbf{0}\) e \(\text{Var}(\mathbf{\epsilon}) = \mathbf{\Sigma}\)

👉 Portanto, os erros associados a diferentes componentes do vetor resposta podem ser correlacionados.

Notação Matricial

\[\underbrace{\mathbf{Y}}_{n \times p} = \underbrace{\mathbf{X}}_{n \times (r + 1)} \underbrace{\mathcal{B}}_{(r + 1) \times p} + \underbrace{\mathbf{\epsilon}}_{n \times p} \]

Modelos de Regressão Linear Multivariada

\[ \mathbf{Y} = \left[ \begin{matrix} Y_{11} & Y_{12} & \cdots & Y_{1p} \\ Y_{21} & Y_{22} & \cdots & Y_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ Y_{n1} & Y_{n2} & \cdots & Y_{np} \end{matrix} \right] = \left[\mathbf{Y}_{(1)} | \mathbf{Y}_{(2)} | \cdots | \mathbf{Y}_{(p)} \right] \]

\[ \mathbf{X}_{n \times (r + 1)} = \left[ \begin{matrix} 1 & X_{11} & X_{12} & \cdots & X_{1r} \\ 1 & X_{21} & X_{22} & \cdots & X_{2r} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & X_{n1} & X_{n2} & \cdots & X_{nr} \end{matrix} \right] \]

Modelos de Regressão Linear Multivariada

\[ \mathcal{B}_{(r + 1) \times p}= \left[ \begin{matrix} \beta_{01} & \beta_{02} & \cdots &\beta_{0p} \\ \beta_{11} & \beta_{12} & \cdots & \beta_{1p} \\ \vdots & \vdots & \ddots & \vdots \\ \beta_{r1} & \beta_{r2} & \cdots & \beta_{rp} \end{matrix} \right] = \left[\mathbf{\beta}_{(1)} | \mathbf{\beta}_{(2)} | \cdots | \mathbf{\beta}_{(p)} \right] \]

\[ \mathbf{\epsilon} = \left[ \begin{matrix} \epsilon_{11} & \epsilon_{12} & \cdots & \epsilon_{1p} \\ \epsilon_{21} & \epsilon_{22} & \cdots & \epsilon_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ \epsilon_{n1} & \epsilon_{n2} & \cdots & \epsilon_{np} \end{matrix} \right] = \left[\mathbf{\epsilon}_{(1)} | \mathbf{\epsilon}_{(2)} | \cdots | \mathbf{\epsilon}_{(p)} \right] \]

Modelos de Regressão Linear Multivariada


  • Suposições do modelo: \(\underbrace{\mathbf{Y}}_{n \times p} = \underbrace{\mathbf{X}}_{n \times (r + 1)} \underbrace{\mathcal{B}}_{(r + 1) \times p} + \underbrace{\mathbf{\epsilon}}_{n \times p}\)

\[E(\mathbf{\epsilon}_{(i)}) = \mathbf{0}, \text{Cov}(\mathbf{\epsilon}_{(i)}, \mathbf{\epsilon}_{(k)}) = \sigma_{ik} \mathbf{I}_n \hspace{0.5cm} i,k = 1, 2, \cdots, p\]

  • As p medidas sobre a i-ésima observação têm matriz de covariâncias dada por \(\mathbf{\Sigma} = (\sigma_{ik})\), mas medidas provenientes de observações diferentes são não correlacionadas.

Modelos de Regressão Linear Multivariada

🤔

\(\mathcal{B}\) e \(\mathbf{\Sigma}\) são desconhecidos…

Observe que a i-ésima coluna da matriz resposta segue o modelo linear univariado dado por:

\[\mathbf{Y}_{(i)} = \mathbf{X} \mathbf{\beta}_{(i)} + \mathbf{\epsilon}_{(i)}, \hspace{0.5cm} i = 1, 2, \cdots, p\]

com \(\text{Cov}(\mathbf{\epsilon}_{(i)}) = \sigma_{ii} \mathbf{I}_n\).

Estimação de Mínimos Quadrados

De acordo com o caso univariado, o estimador de mínimos quadrados para o vetor \(\mathbf{\beta}\):

\[\widehat{\mathbf{\beta}}_{(i)} = (\mathbf{X}^t \mathbf{X})^{-1}\mathbf{X}^t \mathbf{Y}_{(i)}, \hspace{0.5cm} i = 1, 2, \cdots, p\]

Uma vez que \(\mathcal{B} = \left[\mathbf{\beta}_{(1)} | \mathbf{\beta}_{(2)} | \cdots | \mathbf{\beta}_{(p)} \right]\), temos

\[\widehat{\mathcal{B}} = \left[\widehat{\mathbf{\beta}}_{(1)} | \widehat{\mathbf{\beta}}_{(2)} | \cdots | \widehat{\mathbf{\beta}}_{(p)} \right] = (\mathbf{X}^t \mathbf{X})^{-1} \mathbf{X}^t \left[\mathbf{Y}_{(1)} | \mathbf{Y}_{(2)} | \cdots | \mathbf{Y}_{(p)} \right]\]

ou,

\[\widehat{\mathcal{B}} = (\mathbf{X}^t \mathbf{X})^{-1} \mathbf{X}^t \mathbf{Y}\]

é o estimador de mínimos quadrados da matriz \(\mathcal{B}\)

Estimação de Mínimos Quadrados

  • Matriz de soma de quadrados e produtos cruzados do erros:

\[\text{SQP Res} = \mathbf{\epsilon}^t\mathbf{\epsilon} = (\mathbf{Y} - \mathbf{X} \widehat{\mathcal{B}})^t(\mathbf{Y} - \mathbf{X} \widehat{\mathcal{B}})\]

  • Valores ajustados:

\[\widehat{\mathbf{Y}} = \mathbf{X} \widehat{\mathcal{B}} = \mathbf{X}(\mathbf{X}^t \mathbf{X})^{-1} \mathbf{X}^t \mathbf{Y}\]

  • Resíduos:

\[\widehat{\mathbf{\epsilon}} = (\mathbf{Y} - \widehat{\mathbf{Y}}) = (\mathbf{Y} - \mathbf{X}\widehat{\mathcal{B}}) = [\mathbf{I} - \mathbf{X}( \mathbf{X}^t \mathbf{X})^{-1} \mathbf{X}^t] \mathbf{Y}\]

Propriedades


Condições de ortogonalidade…

\[\mathbf{X}^t \widehat{\mathbf{\epsilon}} = \mathbf{X}^t[\mathbf{I} - \mathbf{X}(\mathbf{X}^t\mathbf{X})^{-1}\mathbf{X}^t] \mathbf{Y} = \mathbf{0}\]

\[ \widehat{\mathbf{Y}}^t \widehat{\mathbf{\epsilon}} = \widehat{\mathcal{B}}^t \mathbf{X}^t[\mathbf{I} - \mathbf{X}(\mathbf{X}^t\mathbf{X})^{-1}\mathbf{X}^t] \mathbf{Y} = \mathbf{0}\]

Uma vez que \(\mathbf{Y} = \widehat{\mathbf{Y}} + \widehat{\mathbf{\epsilon}}\),

\[\mathbf{Y}^t\mathbf{Y} = (\widehat{\mathbf{Y}} + \widehat{\mathbf{\epsilon}})^t(\widehat{\mathbf{Y}} + \widehat{\mathbf{\epsilon}}) = \widehat{\mathbf{Y}}^t\widehat{\mathbf{Y}} + \widehat{\mathbf{\epsilon}}^t\widehat{\mathbf{\epsilon}}^t + \mathbf{0} + \mathbf{0}^t\]

Propriedades


ou,

\[\underbrace{{\mathbf{Y}}^t{\mathbf{Y}}}_{\text{SQP total}} = \underbrace{\widehat{\mathbf{Y}}^t\widehat{\mathbf{Y}}}_{\text{SQP regressão}} + \underbrace{\widehat{\mathbf{\epsilon}}^t\widehat{\mathbf{\epsilon}}^t}_{\text{SQP Res}}\]

De forma que, a soma de quadrados e produtos cruzados dos resíduos pode ser reescrita como:

\[\widehat{\mathbf{\epsilon}}^t\widehat{\mathbf{\epsilon}}^t = \mathbf{Y}^t\mathbf{Y} - \widehat{\mathbf{Y}}^t\widehat{\mathbf{Y}} = \mathbf{Y}^t\mathbf{Y} - \widehat{\mathcal{B}}^t \mathbf{X}^t\mathbf{X}\widehat{\mathcal{B}}\]

Propriedades do estimador \(\widehat{\mathcal{B}}\)

Para o estimador de mínimos quadrados \(\widehat{\mathcal{B}}\) com a matriz \(\mathbf{X}\) de posto completo, tem-se:

\[ \begin{eqnarray*} E(\widehat{\mathcal{B}}) &=& E[(\mathbf{X}^t\mathbf{X})^{-1}\mathbf{X}^t\mathbf{Y}] = (\mathbf{X}^t\mathbf{X})^{-1}\mathbf{X}^tE(\mathbf{Y}) = \\ &=& (\mathbf{X}^t\mathbf{X})^{-1}\mathbf{X}^t\mathbf{X}\mathcal{B} = \mathbf{I}\mathcal{B} = \mathcal{B} \end{eqnarray*} \]

Além disso,

\[\text{Cov}(\widehat{\mathbf{\beta}}_{(i)},\widehat{\mathbf{\beta}}_{(k)}) = \sigma_{ik}(\mathbf{X}^t\mathbf{X})^{-1}, \hspace{0.5cm} E(\widehat{\mathbf{\epsilon}}) = \mathbf{0}, \hspace{0.5cm} E \left(\displaystyle{\dfrac{\widehat{\mathbf{\epsilon}}^t \widehat{\mathbf{\epsilon}}}{n - r - 1 }} \right) = \mathbf{\Sigma} \]

Propriedades do estimador \(\widehat{\mathcal{B}}\)


  • \(\widehat{\mathcal{B}}\) e \(\widehat{\mathbf{\epsilon}}\) são não correlacionados.
  • Estimador não viciado para \(\mathbf{\Sigma}\):

\[\widehat{\mathbf{\Sigma}} = \mathbf{S} = \displaystyle{\dfrac{\widehat{\mathbf{\epsilon}}^t\widehat{\mathbf{\epsilon}}}{n - r - 1}} = \displaystyle{\dfrac{(\mathbf{Y} - \mathbf{X} \widehat{\mathcal{B}})^t(\mathbf{Y} - \mathbf{X} \widehat{\mathcal{B}})}{n - r - 1}} = \displaystyle{\dfrac{\mathbf {Y}^t\mathbf{Y} - \widehat{\mathcal{B}}^t \mathcal{X}^t\mathbf{X}\widehat{\mathcal{B}}}{n - r - 1}}\]

Exemplo: O impacto do estresse materno no baixo peso ao nascimento


Os dados do arquivo Exemplo_regressao_02.dat referem-se à medidas antropométricas, sócio-econômicas e variáveis relacionadas ao nível de estresse de 50 gestantes de um determinado município, mensuradas no último trimestre de gestação.

O estresse materno foi avaliado através de quatro variáveis distintas: resultado do teste de Estado de Ansiedade (EA), resultado do teste de Traço de Ansiedade (TA), resultado do Questionário Geral de Saúde (QGS) e Escala de Percepção de Estresse (EPE).

Exemplo: O impacto do estresse materno no baixo peso ao nascimento


  • Como variáveis resposta, foram avaliados: peso da criança ao nascer (PESO), medido em gramas e a idade gestacional do recém-nascido, (IG), medida em semanas.

  • As variáveis explicativas ou independentes foram: peso materno (PESOM), em kg, altura materna (ALTURAM), em metros, idade (IDADEM), em anos, renda per capta (RENDA), além dos resultados dos testes de ansiedade.

Exemplo: O impacto do estresse materno no baixo peso ao nascimento

library(pacman)
pacman::p_load(
  tidyverse,
  ggResidpanel
)
dados = read.table("https://raw.githubusercontent.com/tiagomartin/est022/refs/heads/main/dados/Exemplo_regressao_02.dat", header = TRUE) 
dados %>% str()
'data.frame':   50 obs. of  11 variables:
 $ n      : int  1 2 3 4 5 6 7 8 9 10 ...
 $ PESOM  : num  64.3 124.9 76.3 57.7 68.3 ...
 $ ALTURAM: num  1.56 1.56 1.61 1.61 1.63 ...
 $ IDADEM : num  34.1 27 31 22.1 20 ...
 $ RENDA  : num  1.39 11.02 1.71 5.51 3.67 ...
 $ EA     : int  32 40 47 30 35 35 40 30 40 30 ...
 $ TA     : int  28 41 61 51 29 43 44 29 33 27 ...
 $ QGS    : int  3 2 7 2 2 2 1 1 0 0 ...
 $ EPE    : int  12 31 28 31 17 26 22 12 26 13 ...
 $ PESO   : num  1772 2105 1744 1468 1793 ...
 $ IG     : num  38.6 37.6 37.5 37.9 39.5 ...

Exemplo: O impacto do estresse materno no baixo peso ao nascimento

attach(dados)

n <- length(PESO)
n
[1] 50
## Matriz Y
Y = cbind(PESO,IG)
Y %>% head()
        PESO    IG
[1,] 1772.38 38.62
[2,] 2104.66 37.64
[3,] 1744.21 37.48
[4,] 1468.35 37.92
[5,] 1793.47 39.48
[6,] 1574.18 39.17
dim(Y)
[1] 50  2
## Matriz X
X0 <- rep(1,n)
X = cbind(X0,PESOM,ALTURAM,IDADEM,RENDA,EA,TA,QGS,EPE)
X %>% head()
     X0 PESOM ALTURAM IDADEM RENDA EA TA QGS EPE
[1,]  1  64.3   1.558  34.11  1.39 32 28   3  12
[2,]  1 124.9   1.564  27.04 11.02 40 41   2  31
[3,]  1  76.3   1.609  31.04  1.71 47 61   7  28
[4,]  1  57.7   1.611  22.11  5.51 30 51   2  31
[5,]  1  68.3   1.630  20.00  3.67 35 29   2  17
[6,]  1  56.5   1.675  18.00  0.55 35 43   2  26
dim(X)
[1] 50  9

Exemplo: O impacto do estresse materno no baixo peso ao nascimento


## Estimando a matriz B atraves do metodo de minimos quadrados

XLX <- t(X)%*%X
XLY <- t(X)%*%Y

B <- solve(XLX)%*%XLY
B
                PESO            IG
X0      1212.5343987 24.1758205307
PESOM      6.9887534  0.0001887668
ALTURAM    7.2061375 10.6537733437
IDADEM     0.3215295 -0.0197249682
RENDA      0.4737547 -0.0016100344
EA         9.6597919 -0.0002019132
TA        -7.3673052 -0.0301912231
QGS        9.8990680 -0.0192292986
EPE       -3.5053898 -0.0447611974

Exemplo: O impacto do estresse materno no baixo peso ao nascimento


## Matriz de soma de quadrados e produtos do residuo

SQPRes = t(Y - X%*%B)%*%(Y - X%*%B)
SQPRes
            PESO          IG
PESO 70.08242236 0.029858920
IG    0.02985892 0.002944886
## Valores ajustados

Ych = X%*%B
Ych %>% head()
         PESO       IG
[1,] 1775.226 38.66484
[2,] 2106.078 37.63882
[3,] 1743.909 37.47806
[4,] 1462.306 37.93309
[5,] 1794.429 39.47194
[6,] 1575.474 39.16808

Exemplo: O impacto do estresse materno no baixo peso ao nascimento


## Residuos

res = Y - Ych
res %>% head()
           PESO           IG
[1,] -2.8456187 -0.044842760
[2,] -1.4182509  0.001179097
[3,]  0.3014800  0.001944569
[4,]  6.0437917 -0.013085406
[5,] -0.9589071  0.008055721
[6,] -1.2939375  0.001918025
## Residuos

plot(res)
abline(h=0, col = "red", lty = 3,lwd = 5)

Exemplo: O impacto do estresse materno no baixo peso ao nascimento


## Condicoes de ortogonalidade

t(X)%*%res
                 PESO            IG
X0      -3.000787e-08 -5.468692e-10
PESOM   -2.097499e-06 -3.819249e-08
ALTURAM -4.783158e-08 -8.712632e-10
IDADEM  -7.367790e-07 -1.340978e-08
RENDA   -6.381405e-08 -1.157973e-09
EA      -1.145607e-06 -2.084996e-08
TA      -1.212015e-06 -2.213215e-08
QGS     -8.288634e-08 -1.511218e-09
EPE     -6.691682e-07 -1.220575e-08
t(Ych)%*%res
              PESO            IG
PESO -5.226812e-05 -9.516800e-07
IG   -1.152442e-06 -2.099628e-08

Exemplo: O impacto do estresse materno no baixo peso ao nascimento


## Soma de quadrados e produtos total

SQPTot = t(Y)%*%Y
SQPTot
          PESO         IG
PESO 152262853 3340853.60
IG     3340854   73669.64
## Soma de quadrados e produtos da regressao

SQPReg = t(Ych)%*%Ych
SQPReg
          PESO         IG
PESO 152262783 3340853.57
IG     3340854   73669.64

Exemplo: O impacto do estresse materno no baixo peso ao nascimento


## Soma de quadrados e produtos da regressao
Y = cbind(PESO,IG)
X = cbind(PESOM,ALTURAM,IDADEM,RENDA,EA,TA,QGS,EPE)

model = lm(Y~X)
summary(model)
Response PESO :

Call:
lm(formula = PESO ~ X)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.8456 -0.4815  0.0194  0.5147  6.0438 

Coefficients:
              Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 1212.53440    5.42474  223.519  < 2e-16 ***
XPESOM         6.98875    0.02018  346.247  < 2e-16 ***
XALTURAM       7.20614    3.70926    1.943  0.05894 .  
XIDADEM        0.32153    0.03269    9.836 2.38e-12 ***
XRENDA         0.47375    0.15148    3.127  0.00324 ** 
XEA            9.65979    0.03237  298.405  < 2e-16 ***
XTA           -7.36731    0.02412 -305.405  < 2e-16 ***
XQGS           9.89907    0.09466  104.574  < 2e-16 ***
XEPE          -3.50539    0.03830  -91.523  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.307 on 41 degrees of freedom
Multiple R-squared:  0.9999,    Adjusted R-squared:  0.9999 
F-statistic: 6.698e+04 on 8 and 41 DF,  p-value: < 2.2e-16


Response IG :

Call:
lm(formula = IG ~ X)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.044843 -0.001417  0.000802  0.003455  0.009661 

Coefficients:
              Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 24.1758205  0.0351649  687.499   <2e-16 ***
XPESOM       0.0001888  0.0001308    1.443    0.157    
XALTURAM    10.6537733  0.0240446  443.084   <2e-16 ***
XIDADEM     -0.0197250  0.0002119  -93.081   <2e-16 ***
XRENDA      -0.0016100  0.0009819   -1.640    0.109    
XEA         -0.0002019  0.0002098   -0.962    0.342    
XTA         -0.0301912  0.0001564 -193.072   <2e-16 ***
XQGS        -0.0192293  0.0006136  -31.337   <2e-16 ***
XEPE        -0.0447612  0.0002483 -180.289   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.008475 on 41 degrees of freedom
Multiple R-squared:  0.9999,    Adjusted R-squared:  0.9999 
F-statistic: 6.545e+04 on 8 and 41 DF,  p-value: < 2.2e-16

Exemplo: O impacto do estresse materno no baixo peso ao nascimento

model01 = lm(PESO ~ PESOM+ALTURAM+IDADEM+RENDA+EA+TA+QGS+EPE)
summary(model01)

Call:
lm(formula = PESO ~ PESOM + ALTURAM + IDADEM + RENDA + EA + TA + 
    QGS + EPE)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.8456 -0.4815  0.0194  0.5147  6.0438 

Coefficients:
              Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 1212.53440    5.42474  223.519  < 2e-16 ***
PESOM          6.98875    0.02018  346.247  < 2e-16 ***
ALTURAM        7.20614    3.70926    1.943  0.05894 .  
IDADEM         0.32153    0.03269    9.836 2.38e-12 ***
RENDA          0.47375    0.15148    3.127  0.00324 ** 
EA             9.65979    0.03237  298.405  < 2e-16 ***
TA            -7.36731    0.02412 -305.405  < 2e-16 ***
QGS            9.89907    0.09466  104.574  < 2e-16 ***
EPE           -3.50539    0.03830  -91.523  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.307 on 41 degrees of freedom
Multiple R-squared:  0.9999,    Adjusted R-squared:  0.9999 
F-statistic: 6.698e+04 on 8 and 41 DF,  p-value: < 2.2e-16

Exemplo: O impacto do estresse materno no baixo peso ao nascimento

model02 = lm(IG ~ PESOM+ALTURAM+IDADEM+RENDA+EA+TA+QGS+EPE)
summary(model02)

Call:
lm(formula = IG ~ PESOM + ALTURAM + IDADEM + RENDA + EA + TA + 
    QGS + EPE)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.044843 -0.001417  0.000802  0.003455  0.009661 

Coefficients:
              Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 24.1758205  0.0351649  687.499   <2e-16 ***
PESOM        0.0001888  0.0001308    1.443    0.157    
ALTURAM     10.6537733  0.0240446  443.084   <2e-16 ***
IDADEM      -0.0197250  0.0002119  -93.081   <2e-16 ***
RENDA       -0.0016100  0.0009819   -1.640    0.109    
EA          -0.0002019  0.0002098   -0.962    0.342    
TA          -0.0301912  0.0001564 -193.072   <2e-16 ***
QGS         -0.0192293  0.0006136  -31.337   <2e-16 ***
EPE         -0.0447612  0.0002483 -180.289   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.008475 on 41 degrees of freedom
Multiple R-squared:  0.9999,    Adjusted R-squared:  0.9999 
F-statistic: 6.545e+04 on 8 and 41 DF,  p-value: < 2.2e-16
detach(dados)

Exemplo: O impacto do estresse materno no baixo peso ao nascimento

resid_panel(model01)

Exemplo: O impacto do estresse materno no baixo peso ao nascimento

resid_panel(model02)